Python pyspark DataFrame.drop

您所在的位置:网站首页 dropduplicates 只删邻近重复列吗 Python pyspark DataFrame.drop

Python pyspark DataFrame.drop

2024-07-15 11:10| 来源: 网络整理| 查看: 265

本文简要介绍 pyspark.pandas.DataFrame.drop_duplicates 的用法。

用法:DataFrame.drop_duplicates(subset: Union[Any, Tuple[Any, …], List[Union[Any, Tuple[Any, …]]], None] = None, keep: str = 'first', inplace: bool = False) → Optional[pyspark.pandas.frame.DataFrame]

返回DataFrame,并删除重复行,可以选择仅考虑某些列。

参数: subset:列标签或标签序列,可选

仅考虑某些列来识别重复项,默认情况下使用所有列。

keep:{‘first’, ‘last’, False},默认 ‘first’

确定要保留哪些重复项(如果有)。 - first :删除除第一次出现的重复项。 - last :删除除最后一次出现的重复项。 - False:删除所有重复项。

inplace:布尔值,默认为 False

是否将重复项放在适当的位置或返回副本。

返回: DataFrame

DataFrame 删除重复项,如果 inplace=True 则为 None 。

>>> df = ps.DataFrame( .. … {‘a’: [1, 2, 2, 2, 3], ‘b’: [‘a’, ‘a’, ‘a’, ‘c’, ‘d’]}, 列 = [‘a’, ‘b’]) >>> df a b 0 1个 1 2个 2 2个 3 2 摄氏度 4 3天 >>> df.drop_duplicates().sort_index() a b 0 1个 1 2个 3 2 摄氏度 4 3天 >>> df.drop_duplicates('a').sort_index() a b 0 1个 1 2个 4 3天 >>> df.drop_duplicates(['a', 'b']).sort_index() a b 0 1个 1 2个 3 2 摄氏度 4 3天 >>> df.drop_duplicates(keep='last').sort_index() a b 0 1个 2 2个 3 2 摄氏度 4 3天 >>> df.drop_duplicates(keep=False).sort_index() a b 0 1个 3 2 摄氏度 4 3天

相关用法

Python pyspark DataFrame.dropDuplicates用法及代码示例 Python pyspark DataFrame.dropna用法及代码示例 Python pyspark DataFrame.drop用法及代码示例 Python pyspark DataFrame.droplevel用法及代码示例 Python pyspark DataFrame.div用法及代码示例 Python pyspark DataFrame.dtypes用法及代码示例 Python pyspark DataFrame.duplicated用法及代码示例 Python pyspark DataFrame.distinct用法及代码示例 Python pyspark DataFrame.describe用法及代码示例 Python pyspark DataFrame.diff用法及代码示例 Python pyspark DataFrame.dot用法及代码示例 Python pyspark DataFrame.to_latex用法及代码示例 Python pyspark DataFrame.align用法及代码示例 Python pyspark DataFrame.plot.bar用法及代码示例 Python pyspark DataFrame.to_delta用法及代码示例 Python pyspark DataFrame.quantile用法及代码示例 Python pyspark DataFrame.cumsum用法及代码示例 Python pyspark DataFrame.iloc用法及代码示例 Python pyspark DataFrame.printSchema用法及代码示例 Python pyspark DataFrame.to_table用法及代码示例 Python pyspark DataFrame.rmod用法及代码示例 Python pyspark DataFrame.to_pandas用法及代码示例 Python pyspark DataFrame.sum用法及代码示例 Python pyspark DataFrame.transform用法及代码示例 Python pyspark DataFrame.get用法及代码示例

注:本文由纯净天空筛选整理自spark.apache.org大神的英文原创作品 pyspark.pandas.DataFrame.drop_duplicates。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3